پیش بینی و اولویت بندی ژن های کاندید بیماری با استفاده از داده های توالی پروتئین و رویکرد یادگیری ماشین

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده برق و کامپیوتر
  • نویسنده اکرم وثیقی ذاکر
  • استاد راهنما سعید جلیلی
  • سال انتشار 1393
چکیده

براساس این اصل که ژن‏های بیماری های مشابه احتمالاً ویژگی های مشابه دارند، تاکنون برخی روش‏های یادگیری ماشین برای پیش‏بینی ژن‏های بیماری جدید با استفاده از ژن‏های شناخته شده عامل بیماری به کار گرفته شده است. روش‏های پیشین معمولاً یک مدل دسته‏بند دوکلاسی با استفاده از ژن‏های شناخته شده ی بیماری به عنوان مجموعه ی آموزشی مثبت، و ژن‏های ناشناخته به عنوان مجموعه ی آموزشی منفی، ایجاد می‏کردند. اما مجموعه ی منفی که آنها استفاده می کردند دارای نویز است. زیرا ژن‏های ناشناخته می تواند شامل ژن‏های شناخته نشده ی بیماری، یعنی مجموعه ی مثبت هم باشد. بنابراین دسته‏بند ایجاد شده به خوبی عمل نخواهد کرد. اخیراً روش هایی مبتنی بر یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب برای شناسایی ژن های بیماری به کار گرفته شده اند. این روش ها هم منطقاً روش درستی برای ارائه راه حل برگزیده اند و هم نتایج بهتری نسبت به روش های قبل کسب کرده اند. در این پایان نامه دو روش ارائه شده است: 1) روش یادگیری تک کلاسی با استفاده از داده های مثبت و 2) روش یادگیری نیمه نظارتی با استفاده از داده های مثبت و بدون برچسب. در روش اول سعی شده است با نادیده گرفتن مجموعه بدون برچسب، اثر نامطلوب مجموعه منفی دارای نویز کاهش داده شود و با یک دسته بند تک کلاسی ژن های کاندید بیماری را دسته بندی می کنیم. سپس برای بالا بردن دقت، در روش دوم داده های بدون برچسب را هم در یادگیری دخالت می دهیم. بدین صورت که با توجه به ساختار و الگوی ژن های کاندید بیماری و همچنین با استفاده از اندازه گیری شباهت ژن های بدون برچسب به ژن های کاندید بیماری، تعدادی داده ی منفی از داده های بدون برچسب استخراج می کنیم. سپس یک دسته بند دوکلاسی با استفاده از این نمونه های منفی و نمونه های مثبت اولیه یادگیری می کنیم. در نهایت ژن های مثبت به دست آمده از دسته بند را با استفاده از تابع امتیازدهی رتبه بندی می کنیم. نتایج به دست آمده نشان می دهد که دقت دسته بندی در روش اول 7.4% و در روش دوم به مقدار 27.4% نسبت به روش های پیشین افزایش یافته است. و همینطور در نتایج اولویت بندی روش اول نرخی حدود 6% و در روش دوم نرخی حدود 7% افزایش را مشاهده می کنیم.

منابع مشابه

پیش بینی ژن‏ های بیماری با استفاده از دسته‏ بند تک‌کلاسی ماشین بردار پشتیبان

Abstract: In disease gene identification and classification, users are only interested in classifying one specific class, disease genes, without considering other classes (non-disease genes). This situation is referred to as one-class classification. Existing machine learning-based methods typically use known disease gene as positive training set and unknown genes as negative training set to bu...

متن کامل

شناسایی و اولویت بندی مدل های کسب و کار الکترونیکی موفق در ایران با استفاده از تکنیک‌های یادگیری ماشین

تجارت و روش‌های کسب‌و‌کار، یکی از مهم‌ترین حوزه‌هایی است که با به‌کارگیری فناوری‌های نوین اطلاعاتی و ارتباطی و اینترنت به‌سرعت و به‌شدت تحت تأثیر قرار گرفت. بسیاری از روش‌های سنتی کسب درآمد متحول گشته و روش‌ها و ارزش‌های جدید فراوانی پا به عرصه وجود نهادند. در همین راستا مطالعه سیستم مدل‌های کسب‌و‌کار الکترونیکی در جهان پیچیده امروز ضروری است. علی‌رغم اینکه برخی کسب‌و‌کارها در حوزه‌ی کاری خود ب...

متن کامل

پیش بینی روش درمان بیماری قلبی با استفاده از الگوریتم های داده کاوی

Background and Aim: Nowadays heart disease is very common and is a major cause of mortality. Proper and early diagnosis of this disease is very important. Diagnostic methods and treatments of the disease are so expensive and have many side effects. Therefore, researchers are looking for cheaper ways to diagnose it with high precision. This study aimed to identify a model for the treatment of he...

متن کامل

پیش بینی رسوب معلق با استفاده از داده های هیدرولوژیک و هیدروژئومورفیک در مدل های هوشمند

برآورد دقیق مقدار رسوبات حمل شده توسط رودخانه ها، در مدیریت منابع آب از اهمیت بسیاری برخوردار است. بنابراین شناسایی و پیشنهاد مدلهای مناسب جهت برآورد رسوب معلق از اهداف مهم تلقی میشود که استفاده از روش نوین مدلهای هوشمند از جمله شبکه عصبی مصنوعی و رگرسیون بردار پشتیبان در این زمینه تحول عظیمی وجود آورده است. یک گام مهم در مدلسازی رسوب معلق با استفاده از این مدلها، انتخاب ورودیهای مناسب میباشد، ...

متن کامل

The Study of Stressful Factors in Clinical Education for Nursing Students Studying in Nursing and Midwifery College in Khorramabad

کچ هدي پ شي مز هني فده و : شزومآ لاب يني شخب ساسا ي شزومآ مهم و راتسرپ ي تسا . و هنوگ ره دوج لکشم ي شزومآ رد لاب يني ، آراک يي هدزاب و ا ني شزومآ زا شخب راچد ار لکشم م ي دنک . فده اب رضاح شهوژپ سررب ي لماوع سرتسا از ي شزومآ لاب يني رد وجشناد ناي راتسرپ ي هدکشناد راتسرپ ي و يامام ي ماـجنا داـبآ مرـخ تسا هتفرگ . شور و داوم راک : رضاح هعلاطم کي هعلاطم صوت يفي عطقم ي تسا . د...

متن کامل

مدل های یادگیری ماشین برای پیش بینی تشخیص بیماری کبد

سابقه و هدف: کبد مهم ترین ارگان داخلی بدن می باشد که نقش اصلی در متابولیسم بدن دارد. بیماری کبد را نمی توان به راحتی در مراحل اولیه کشف کرد زیرا کبد حتی زمانی که قسمتی از آن نیز آسیب دیده باشد به درستی کار می کند و این خود تشخیص این بیماری را مشکل می کند. ابزارهای طبقه بندی اتوماتیک به عنوان یک ابزار کمک تشخیص باعث کاهش بار کاری پزشکان می گردد. طبقه بندی هایی که به منظور تشخیص هوشمند بیماری کبد...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تربیت مدرس - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023